Telegram Group Search
⭐️ Чек-лист: как правильно работать с pandas

Работаете с табличными данными?

Эти простые советы сэкономят вам время, память и нервы:

✔️ Используйте векторизацию вместо apply

Быстрее, короче, читаемее:
# Вместо apply
df["log"] = np.log(df["x"])


✔️ Считайте в столбцах, а не в цикле по строкам

Избавьтесь от .iterrows() — векторные операции эффективнее:
df["sum"] = df["a"] + df["b"]


✔️ Используйте `category` для колонок с повторяющимися строками

Существенно уменьшает потребление памяти:
df["country"] = df["country"].astype("category")


✔️ Загружайте только нужные данные

Не тратьте ресурсы на лишние строки и столбцы:
pd.read_csv("big.csv", usecols=["col1", "col2"], nrows=100_000)


✔️ Сохраняйте данные одним вызовом, а не в цикле

Сначала собираем — потом записываем:
df.to_csv("result.csv", index=False)


✔️ Контролируйте использование памяти

Проверяйте «тяжёлые» столбцы
df.memory_usage(deep=True)


Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🫣 Устали от HR-сказок про «дружный коллектив» и «печеньки в офисе»?

Давайте честно поговорим о том, что действительно происходит на IT-рынке. Не в розовых презентациях, а в реальной жизни разработчиков, тестировщиков, аналитиков и всех, кто живет кодом.

🧐 Мы проводим исследование, чтобы выяснить:

— Как часто мы прыгаем между компаниями (и почему)
— Какие красные флаги заставляют бежать без оглядки
— Где реально находят работу
— Что бесит в HR больше всего
— Сколько кругов собеседований — это уже перебор

Результаты покажут реальную картину рынка. Без приукрашиваний. Может, компании поймут, что нужно менять, а специалисты — куда двигаться дальше.

😈 Опрос займет 5 минут, но результаты будут работать на всех нас → https://clc.to/9aaXVg
🎯 Анализ и прогнозирование временных рядов на Python!

Если вы хотите разобраться, как работать с временными рядами и строить точные прогнозы — этот курс именно для вас.

Будь вы новичком или уже знакомы с темой, вы найдёте в курсе всё необходимое: от базовых понятий до продвинутых моделей.

📦 В курсе разбираются:
— Простое, двойное и тройное экспоненциальное сглаживание (метод Холта-Винтерса)
— Метрики оценки моделей: MAE, RMSE, MAPE
— Продвинутые модели прогнозирования: ARIMA, SARIMA, SARIMAX
— Препроцессинг ежедневных данных и кросс-валидация для временных рядов
— Настройка гиперпараметров и проверка качества прогноза

📌 Вы научитесь:
— Готовить временные ряды к моделированию
— Строить и обучать модели в Python
— Оценивать точность и надёжность прогнозов
— Делать обоснованные предсказания на будущее

🔗 Ссылка на курс: https://clc.to/3GDKJg

Библиотека дата-сайентиста #буст
😵‍💫 Как правильно выбрать LLM для использования в агентских системах

Модели могут выдумывать факты, ссылаться на несуществующие источники и уверенно врать. Особенно часто это происходит при работе с редкими языками или специфическими тематиками.

Поэтому на первом занятии курса «AI-агенты для DS-специалистов» разберем, как с этим бороться. И это только первый из пяти уроков!

🔍 Выбор правильной модели
Не все LLM одинаково полезны. Обсудим квантизованные модели, instruct-версии и мультилингвальные решения. Узнаем, где больше галлюцинаций — в базовых моделях или после дообучения.

💰 Токенизация и стоимость
Разные языки «съедают» разное количество токенов. Покажем, как это влияет на цену API и почему русский текст может стоить дороже английского.

⚡️ Температура и Guardrails
Настройка temperature помогает контролировать креативность модели. А системы Guardrails — отсекать неподходящие ответы еще до генерации.

🧠 Память vs контекст
Казалось бы, зачем RAG, если есть модели с контекстом более 10М токенов? Но не все токены равнозначны. Разберем, когда внешние источники все еще нужны.

В конце создадим простых агентов на LangChain с подключением к внешним источникам и инструментам поиска — и у вас уже будет кейс по созданию собственного AI-агента.

👉 Присоединяйтесь к курсу — приятная цена действует до 14 июня!
🧪 Что делать, если классическая схема A/B-теста не работает

A/B-тестирование — золотой стандарт продуктовой аналитики. Оно помогает принимать решения на основе данных, а не догадок.

Но есть нюанс: вся методика держится на важном допущении — независимости поведения пользователей.

⚠️ А если это допущение нарушено? Например, когда один пользователь влияет на другого: в соцсетях, маркетплейсах, рекомендательных системах — в таких случаях классическая схема даёт сбой.

Что с этим делать? Какие альтернативы существуют?

Разбираемся, когда A/B не работает — и чем его заменить: https://proglib.io/sh/lNqAnLfe9J

Библиотека дата-сайентиста #буст
🥴 Средний разработчик меняет работу каждые 1,5 года

И это не потому, что мы такие непостоянные. Просто рынок показывает свое истинное лицо быстрее, чем успевают напечатать визитки.

Поэтому мы собираем инсайды от тех, кто находится в окопах digital-трансформации каждый день. От джуниоров, которые только въезжают в профессию, до сеньоров, повидавших всякого.

😳 О чем говорим откровенно:
— Job-hopping и что за этим стоит
— Red flags, которые мгновенно убивают мотивацию
— Реальные источники вакансий (не те, что рекламируют)
— Боль от общения с рекрутерами
— Сколько этапов отбора — норма, а сколько — издевательство

Когда мы объединим опыт сотен IT-специалистов, получится настоящая карта того, как устроена индустрия. Не по версии HR-отделов, а по версии тех, кто пишет код, тестирует продукты и двигает технологии вперед.

🚀 Участвовать в исследовании → https://clc.to/9aaXVg
✈️ Свежие новости из мира AI и Data Science

👍 Технологии, модели и тренды:
Google Gemini 2.5 Pro — новая превью-версия самой мощной модели Google, уже вырвалась в лидеры LMArena и WebDev Arena. Меньше месяца после последнего релиза — и снова прорыв.
ElevenLabs v3 — самая выразительная AI TTS-модель, поддержка множества языков, включая арабский, африкаанс и мандарин. Новый стандарт для голосовых приложений.
OpenAI и ChatGPT-5 — разбираем слухи, утечки и возможные фичи следующей версии ChatGPT. Что нового и чего ждать?

🧠 Исследования, статьи и практики:
AI лучше человека в тестах на эмоциональный интеллект — исследование Женевского и Бернского университетов: ChatGPT и другие ИИ превосходят людей в распознавании и интерпретации эмоций.
Сколько действительно запоминают LLM-модели? — методика оценки «запоминания» vs. «обобщения» в языковых моделях.
Themis AI от MIT — стартап, обучающий ИИ понимать, чего он не знает. Подход к контролю неопределённости.
ICLR 2025 и доверие к ИИ — новые подходы к обучению на субъективных данных, оценке качества моделей и внедрению человеческих суждений.

🎙 AI в обществе и индустрии:
Demis Hassabis (DeepMind): «AI изменит рынок труда за 5 лет» — CEO Google DeepMind выступил на Google I/O и подкасте Hard Fork, обозначив AGI как ключевую технологию будущего.
MCP-серверы: что это и зачем они нужны? — скоро на слуху у всех, особенно в проектах с тяжёлыми ML-нагрузками.

📘 Обучение, процессы и инструменты:
Лучшие нейросети для суммаризации текста — подборка инструментов для пересказа, анализа и работы с текстами.
Как наладить работу в кросс-функциональной команде Data Science + Dev — опыт Lamoda в совмещении ML и инженерии.

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Вакансии «Библиотеки программиста»

Привет! Мы ищем контент-менеджеров, которые будут вести наши телеграм-каналы о разработке.

👾 Требования:
— знать принципы залетающего контента
— разбираться в темах, связанных с разработкой

Большим плюсом будет навык программирования на каких-либо языках.

Условия:
— удаленка
— частичная занятость
— сдельная оплата в зависимости от количества задач

🔥 Оставляйте отклик, и мы свяжемся с вами: https://forms.gle/o4BZnsQ526JoqsCq9
⚡️ Scikit-learn 1.7 — свежий релиз с полезными улучшениями

Что нового

Красивее и понятнее отображение пайплайнов
Теперь в HTML-представлении моделей отображаются параметры, не-дефолтные подсвечиваются, есть копирование для grid search'ей.

Custom валидация для HistGradientBoosting
Поддержка X_val, y_val прямо в .fit() + трансформация вал.набора через transform_input в пайплайне.

ROC-кривые из cross-validation
Теперь RocCurveDisplay.from_cv_results() — удобно рисовать сразу несколько ROC-кривых.

Поддержка Array API (PyTorch, CuPy и др.)
Больше функций теперь дружат с массивами по стандарту array API — можно использовать альтернативы NumPy без доп. пакетов.

MLP теперь более согласованный
MLPRegressor поддерживает loss='poisson', а также sample\_weight в обоих MLP-классах.

Переход на sparse arrays
Все модели, работавшие с sparse matrix, теперь совместимы и с sparse arrays — шаг навстречу будущему SciPy.

📥 Установить:
pip install --upgrade scikit-learn


Полный changelog — в release notes

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 Топ-вакансий для дата-сайентистов за неделю

Data Engineer / Embedded Software Engineer —‍ от 300 000 до 387 000 ₽ , удалёнка

MLOps-инженер —‍ от 250 000 ₽, гибрид (Москва)

Data Analyst, гибрид (Екатеринбург)

Data Scientist —‍ 150 000₽, удалёнка

Руководитель группы анализа данных —‍ от 400 000 —до 500 000 ₽, гибрид (Москва)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
🚩 Шпаргалка: стратифицированная выборка

Выборка — важный этап любого исследования. Один из надёжных способов — стратифицированная выборка, при которой вся совокупность делится на подгруппы (страты), и из каждой отбирается выборка.

Это особенно полезно, когда необходимо учесть особенности разных сегментов данных.

Преимущества стратифицированной выборки:
🟠 Точная репрезентативность — каждая группа учтена, искажения минимальны
🟠 Более высокая точность — за счёт меньшей дисперсии внутри страт
🟠 Экономия ресурсов — меньший объём выборки при той же достоверности

Сложности, с которыми можно столкнуться:
🔴 Сложная реализация — нужно заранее определить страты
🔴 Риск ошибок — неверная классификация испортит результаты
🔴 Ограниченность — не применим, если нет явных подгрупп

Варианты стратифицированной выборки:
🟣 Пропорциональная — каждая страта представлена в выборке по доле в популяции
🟣 Равномерная — одинаковое число объектов из каждой страты
🟣 Оптимальная — учитывает разброс и стоимость сбора: больше данных — там, где это выгоднее
🟣 Непропорциональная — размер выборки по каждой страте определяется задачей анализа (например, усилить редкие подгруппы)

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
😡 А вас тоже бесят облачные сервисы?

Согласитесь, статус отношений с облаками — все сложно. Но что, если можно изменить правила игры?

Мы готовим нечто особенное в мире облачных технологий, но сначала хотим услышать правду от тех, кто реально работает с облаками каждый день.

Что мы хотим узнать:
— Для чего вы реально используете облако?
— Чего катастрофически не хватает прямо сейчас?
— Что бесит больше всего? (можно материться)
— Как выбираете провайдера — по цене или по любви?
— и тому подобное

По результатам опроса мы подготовим исследование без маркетингового мусора и вы узнаете, как обстоят дела у коллег.

️Время на опрос: меньше, чем на кофе-брейк. Жмите → https://clc.to/nboYDA
🤖 Нейросети для дата-сайентиста: свежий гид по инструментам

Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.

Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.

📊 Что выбрать под вашу задачу — читайте в обзоре!

📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn

Библиотека дата-сайентиста #буст
👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/11 09:46:20
Back to Top
HTML Embed Code: